FILTER MODE ACTIVE

#выравнивание LLM

Найдено записей: 2

#выравнивание LLM06.07.2025

Новый метод Meta и NYU: Полуонлайн обучение с подкреплением для улучшения выравнивания LLM

Meta и NYU разработали полуонлайн метод обучения с подкреплением, который балансирует офлайн и онлайн подходы для улучшения выравнивания больших языковых моделей и повышения их производительности в инструкциях и математике.

#выравнивание LLM04.07.2025

Crome: Каузальная система Google DeepMind для надёжного обучения моделей вознаграждения в выравнивании LLM

Google DeepMind и партнёры представили Crome — каузальную систему, которая повышает устойчивость моделей вознаграждения при выравнивании больших языковых моделей, используя контрфактическую аугментацию данных.